Wielowymiarowa Analiza Danych

Author

Michał Koziński

Published

February 10, 2023

Zagadnienia do przygotowania na egzamin ustny z Wielowymiarowej Analizy Danych



1. Czym się różni test jednowymiarowy od testu wielowymiarowego?

Użycie p testów jednowymiarowych powoduje niekontrolowany wzrost błędu I rodzaju.

Testy jednowymiarowe charakteryzują się mniejszą mocą niż testy wielowymiarowe. Zdarza się, że żaden z testów jednowymiarowych nie odrzuci hipotezy \(H_0\), a test wielowymiarowy tak.

Testy jednowymiarowe kompletnie ignorują korelacje pomiędzy analizowanymi chechami. (nie wuzględniają zależności analizowanych cech)

testy t-Studenta lub ANOVA można stosować osobno dla \(w\) lub \(h\). W pożyszym przypadku nie wykryją one istotnych różnic, ponieważ średnie są podobne dla △ i ○. Dopiero jak się spojrzy na obie cechy jednocześnie, to widać różnicę.

  • Testy jednowymiarowe: porównanie dwóch lub więcej grup pod względem wielkości pewnej cechy.

  • Testy wielowymairowe: porównanie dówych lub więcej grup pod względem wielu cech.

  • Kilkukrotne wykonywanie testów jednowymiarowych powoduje niekontrolowany wzrost popełnienia błędu I. rodzaju,


2. Wymień znane Ci dwa testy wielowymiarowe.

- \(T^2\) Hotelling’a,

- M-Shapiro test

- Test jednorodności macierzy kowariancji (test M-Box’a),

- MANOVA:

  • Lambda Wilka,

  • Test Roy’a,

  • Test Pillai’a,

  • Test Hotelling’a-Lawley’a.


3. Do czego służy test MANOVA i na jakiej zasadzie działa?

MANOVA (Multivariante ANalysis Of VAriance)

  • wielowymiarowa analiza wariancji

  • uogólnienie testów wielowymiarowych Hotellinga.

\(H_0\):   \(u_1=u_2=...=u_k\)

\(H_1\):   co najmniej dwie średnie \(u_j\) nie są równe

Służy do porównywania k wektorów pod kątem średniej.


Przez analogię do jednowymiarowej analizy wariancji test opiera się na porównaniu zmienności międzygrupowej i wewnątrzgrupowej

\[H=n\sum\limits_{i=1}\limits^{k}(y_{i\cdot}-y_{\cdot\cdot})(y_{i\cdot}-y_{\cdot\cdot})'\]

\[E=\sum\limits_{i=1}\limits^{k}\sum\limits_{j=1}\limits^{n_i}(y_{ij}-y_{i\cdot})(y_{ij}-y_{i\cdot})'\]

Cztery wersje MANOVA:

  • Lambda Wilka

    \[\Lambda = \frac{|E|}{|E+H|}\]

    Odrzucamy \(H_0\), gdy \(\Lambda \leq \Lambda_{\alpha,p,v_H,v_E}\).

  • Test Roy’a

    Poszukiwanie takiego kierunku, aby stosunek wariancji międzygrupowej do wewnątrzgrupowej był jak największy.

    \(\lambda_1\) - największa wartość własna macierzy \(E^{-1}H\)

    \[\Theta = \frac{\lambda_1}{1+\lambda_1}\]

    odrzucamy \(H_0\), jeśli \(\Theta \geq \Theta_{\alpha,s,m,N}\),

    gdzie

    \(s=min(\nu_H,p)\),

    \(m = \frac{1}{2(|\nu_H - p|-1)}\),

    \(N = \frac{1}{2(\nu_H - p-1)}\).

  • Test Pillai’a

    Rozwinięcie testu Roy’a, opiera się na wartościach własnych \(\lambda_1,\lambda_2,...,\lambda_s,\) mecierzy \(E^{-1}H\)

    \[V^{(s)}=Tr[(E+H)^{-1}H] = \sum\limits_{i=1}\limits^{s}\frac{\lambda_i}{1+\lambda_i}\]

    odrzucamy \(H_0\), gdy \(V^{(s)}\geq V^{(s)}_\alpha\).

  • Test Hotelling’a-Lawley’a

    \[U^{(s)}=Tr(E^{-1}H) = \sum\limits_{i=1}\limits^{s}\lambda_i\]

    odrzucamy \(H_0\), jeśli \(\frac{\nu_E}{\nu_H}U^{(s)}\) przekraczaja wartosci krytyczne z tabeli Hotelling’a-Lawley’a.


4. Wymień różnice pomiędzy regresją wieloraką a analizą kanoniczną.

Analiza kanoniczna jest naturalnym uogólnikiem modelu regresji wielorakiej.

Polega na badaniu zależności pomiędzy dwoma zbiorami zmiennych \(X \in \mathbb{R}^q\) oraz \(Y \in \mathbb{R}^p\)

Analiza kanoniczna ma na celu odnalezienie struktury zależnosci pomiedzy zmiennymi obu zbiorów.

  • Regresja wieloraka jest skierowana (X objaśnia Y, ale Y w żadnym stopniu nie opisuje X).

  • Regresja wieloraka ignoruje strukturę zależności zmiennych objaśnianych Y.


5. Opisz zasadę działania analizy kanonicznej.

\[\begin{pmatrix}X \\ Y\end{pmatrix} \sim \left(\begin{pmatrix}\mu \\ \nu\end{pmatrix}, \begin{pmatrix}\Sigma_{XX}, & \Sigma_{XY}\\ \Sigma_{YX}, & \Sigma_{YY}\end{pmatrix}\right)\]

gdzie

\(Cov(X) = \Sigma_{XX}\) o wymiarze \(q \times q\)

\(Cov(Y) = \Sigma_{YY}\) o wymiarze \(p \times p\)

\(Cov(X,Y) = E(X-\mu)(Y-\nu)'=\Sigma_{XY}=\Sigma_{YX}' \quad [q \times p]\)


  1. Analiza kanoniczna zmierza do zidentyfikowania struktury zależności pomiędzy zbiorami zmiennych \(X\) i \(Y\).

  2. Realizuje się to poprzez znalezienie pary wektorów maksymalizujących korelację kanoniczną między \(X\) i \(Y\).

  3. Na podstawie rozkładu SVD znajdujemy wektory własne macierzy \(\Sigma_{XX}^{-\frac{1}{2}}\Sigma_{XY}\Sigma_{YY}^{-1}\Sigma_{YX}\Sigma_{XX}^{-\frac{1}{2}}\) i \(\Sigma_{YY}^{-\frac{1}{2}}\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY}\Sigma_{YY}^{-\frac{1}{2}}\), które definiują wektory \(a\) i \(b\).

  4. Pierwiastki niezerowych wartości własnych wspomnianych macierzy ustawione w ciągu malejącym stanowią korelacje kanoniczne kolejnych par zmiennych kanonicznych.

  5. Z rozkładu SVD wynika, że kolejne pary zmiennych kanonicznych są nieskorelowane ze zmiennymi kanonicznymi innych par.

  6. Korelacje kanoniczne są niezmiennicze ze wzgledu na przekształcenia liniowe.


6. Czym charakteryzują się kolejne pary zmiennych kanonicznych?

Kolejne pary kanoniczne są ze sobą coraz słabiej skorelowane. Wartość korelacji k-tej pary kanonicznej wynosi \[\rho(U_k,V_k) = \sqrt{\lambda_k}\]

Ponad to:

  • Z rozkładu SVD wynika, że kolejne pary zmiennych kanonicznych są nieskorelowane ze zmiennymi kanonicznymi innych par.

  • Pierwiastki niezerowych wartości własnych macierzy \(\Sigma_{XX}^{-\frac{1}{2}}\Sigma_{XY}\Sigma_{YY}^{-1}\Sigma_{YX}\Sigma_{XX}^{-\frac{1}{2}}\) i \(\Sigma_{YY}^{-\frac{1}{2}}\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY}\Sigma_{YY}^{-\frac{1}{2}}\), ustawione w ciągu malejącym stanowią korelacje kanoniczne kolejnych par zmiennych kanonicznych.

  • Korelacje kanoniczne są niezmiennicze ze względu na przekształcenia liniowe.


7. Jak testujemy istotność statystyczną par kanonicznych?

Do badania nieskorelowania dwóch zbiorów zmiennych mozna wykorzystać test Wilka największej wiarogodności, przy założeniu normalności wielowymiarowej badanej struktury zmiennych. Badający hipotezę \[H_0: \exists_k \text{cor}(U_k,U_k) \neq 0\] (conajmniej jedna para kanoniczna jest istotnie skorelowana)

\[\text{O statystyce testowej }\; T^{\frac{2}{n}} = |I - S_{YY}^{-1}S_{YX}^{\quad}S_{XX}^{-1}S_{XY}^{\quad}|=\prod\limits_{i=1}^{k}(1-\ell_i)\] gdzie \(S_{YY}^{\quad},S_{YX}^{\quad},S_{XX}^{\quad},S_{XY}^{\quad}\) są odpowiednikami macierzy kowariancji \(\Sigma_{YY}^{\quad},\Sigma_{YX}^{\quad},\Sigma_{XX}^{\quad},\Sigma_{XY}^{\quad}\) wyliczonymi na podstawie próby

oraz \(\ell_i\) jako próbkowy wskaźnik \(\lambda_i\)


  • Test Bartletta (czyli statystyka testowa zaproksymowana do rozkładu \(\chi^2\))

    Rozkład powyższej statystyki testowej jest skomplikowany, dlatego Bartlett wprowadził wzór aproksymacyjny dla dużych \(n\):

    \[-\left[n - \frac{p+q+3}{2}\right]log\prod\limits_{i=1}^{k}(1-\ell_i)\sim \chi_{pq}^{2}\]

    Do testowania hipotezy, że współczynniki korelacji kanonicznych są niezerowe po usunięciu pierwszych \(s\) pierwiastków (zmiennych kanonicznych) używamy statystki:

    \[-\left[n - \frac{p+q+3}{2}\right]log\prod\limits_{i=s+1}^{k}(1-\ell_i)\sim \chi_{(p-s)(q-s)}^{2}\]


8. Co wyrażają ładunki czynnikowe w analizie kanonicznej?

Ładunki czynnikowe wyrażają korelację między zmiennymi kanonicznymi, a poszczególnymi zmiennymi pierwotnymi danego zbioru danych (im wyższe tym silnej dana zmienna pierwotna oddziaływuje na zmienną kanoniczną).


9. Jak określamy poziom wyjaśnionej wariancji w analizie kanonicznej?

Poziom wyjaśnionej wariancji okreslamy za pomocą współczynnika determinacji. W CCA (Canonical Correlation Analysis) jest on średnią kwadratów ładunków czynnikowych, która oznacza jaki procent zmienności zbioru wyjasnia średnio dana zmienna kanoniczna w tym zbiorze danych.
Miarą wyjaśnionej wariancji pierwotnej zmiennej przez zmienną kanoniczną jest kwadrat ładunku (korelacji).


10. Czym jest redundancja w analizie kanonicznej?

Redundancja - kwadrat korelacji kanonicznej pomnożony przez wariancję wyodrębnioną danej zmiennej kanonicznej.

Mówi nam o tym ile przeciętnej wariancji w jednym zbiorze jest wyjaśnione przez daną zmienną kanoniczną przy drugim zbiorze. Inaczej mówiąc dowiemy się z tego wskaźnika jak nadmiarowy jest jeden zbiór zmiennych przy takim, a nie innym składzie zmiennych w drugim zbiorze.


11. Jakie są założenia analizy kanonicznej?

  • Wszystkie rozkłady zmiennych populacji z której pobieramy próbe są wielowymiarowe normalne (konsekwencje naruszenia tego założenia nie są znane).

  • Aby wyniki były rzetelne, zalecane jest aby liczba przypadków branych do analizy była dwudziestokrotnie większa niż liczba zmiennych.

  • Zmienne w obu zbiorach nie powinny być wspóliniowe.

  • Analiza kanoniczna jest wrażliwa na punkty odstające, które mogą zniekształcić znacząco wynik analiz.


12. Do czego służy i jak działa analiza dyskryminacyjna?

Analiza funkcji dyskryminacyjnej stosowana jest do rozstrzygania, które zmienne pozwalają w najlepszy sposób wyróżniać (dyskryminować) dwie lub więcej wyłaniających się grup.

Dokonywane jest to przez przyglądanie się różnicom co do średniej zmiennych w podziale na grupy.

Następnie, za pomocą otrzymanych funkcji dyskryminacyjnych, określana jest przynależność danego obiektu do grupy.


13. Czym są funkcje dyskryminacyjne?

Funkcje dyskryminacyjne - kombinacje liniowe zmiennych niezależnych najlepiej separujące (dyskryminujące) obiekty różnych klas. (decydują o przynależności obiektu do jednej z grup).

Algebraicznie oznacza to zastąpienie wektora cech \(x=(x_1,...,x_m)^T\) kombinacją (zwykle) liniową:

\[u = a_1x_1+a_2x_2+...+a_mx_m\]

gdzie \(\mathrm{a} = (a_1,...,a_m)^T\) będziemy nazywać wektorem wag dyskryminacyjnych i \(x_i = (x_{i1},...,x_{in_i})\) oznacza wartości \(i\)-tej cechy w próbie \(n_i\)-elementowej.

Celem jest utworzenie takiej kombinacji liniowej zmiennych niezależnych, która w najlepszy sposób dyskryminuje dwie lub więcej grup określonych a priori. Oznacza to wyznaczenie takich estymatorów współczynników \(a_i\), które maksymalizują zmienność międzygrupową w stosunku do zmienności wewnątrz grupowej.

Przykład działania funkcji dyskryminacyjnych


14. Jak wyznacza się wektor tworzący funkcje dyskryminacyjne?

Niech \(x_{i1},x_{i2},\dots,x_{in}\) będzie próbą prostą z grupy \(i\), gdzie \(i = 1,\dots,k\) i niech \(n_1+n_2+\dots+n_k=n\).


Z próby tej obliczamy wektory średnich grupowych \[\bar x_i = \frac{1}{n_i}\sum\limits^{n_i}_{j=1}x_{ij}\] oraz macierz kowariancji \[S_i = \frac{1}{n_i-1}\sum\limits^{n_i}_{j=1}(x_{ij}-\bar{x}_{i})(x_{ij}-\bar{x}_{i})^T\; \text{ gdzie }\; i = 1,\dots,k\]


Następnie z całej \(n\)-elementowej próby uczącej obliczamy średnią ogólną \[\bar{x} = \frac{1}{n}\sum\limits^{k}_{i=1} n_i\bar{x}_i\] macierz zmienności międzygrupowej \[H=n\sum\limits_{i=1}\limits^{k}(\bar{x}_{i}-\bar{x})(\bar{x}_{i}-\bar{x})^T\] oraz macierz zmienności wewnątrzgrupowej \[E=\sum\limits^k_{i=1}(n_i-1)S_i\]


Wektory wpsółczynników \(w\) są wektorami własnymi odpowiadjącymi wartościom własnym \[\lambda_1,\lambda_2\dots,\lambda_s \quad s\leq\min(m,k-1)\] równania \[(H-\lambda E)a = 0\]


Otrzymujemy zatem \(s\) kombinacji nazywanych liniowymi funkcjami dyskryminacyjnymi \[u_i=a_i^Tx, \quad i= 1,\dots,s\]

Zmienne dyskryminacyjne są nieskorelowane, ale nie są ortogonalne. Zniekształcenie nie jest zwykle duże, stąd zwyczaj rysowania ich w prostokątnym układzie wpółrzędnych.


15. Jak określa się względną miarę siły dyskryminacyjnej funkcji dyskryminacyjnej?

Wygodną miarą względnej siły dyskryminacyjnej i-tej zmiennej dyskryminacyjnej \(u_i\) jest wielkość \[\widetilde{\lambda}_i = \frac{\lambda_i}{\sum\limits_{i=1}^{s}\lambda_i} \cdot 100\%\] interpretowana jako procent wariancji międzygrupowej przypadający na daną zmienną.


16. Czym jest lambda Wilka w analizie dyskryminacyjnej?

Zauważmy, że \(i\)-ta zmienna dyskryminacyjna nie jest użyteczna w procesie klasyfikcaji jeśli odpowiadająca jej wartość własna nie jest istotnie różna od \(0\).

Pojawia się więc pytanie o istotność otrzymanych wyników. Czy obserwowane w próbie zróżnicowanie występuje faktycznie w badanej populacji?

Najczęściej stosuje się w tym celu Lamdę Wilk’a, która jest miarą mocy dyskryminacyjnej modelu \[\Lambda = \prod\limits_{i=1}^s\frac{1}{1+\lambda_i}\]

gdzie
\(0\) - doskonkonała moc dyskryminacyjna
\(1\) - całkowity brak mocy


17. Czym jest cząstkowa lambda Wilka w analizie dyskryminacyjnej?

Jeżeli model jest istotny statystycznie, to nalezy sprawdzić, czy wszystkie zmienne dyskryminacyjne są istotne.

Dokładniej, czy zmienne po wskaźniku \(p\) mają istotną miarę dyskryminacyjną.

Stosowana jest w tym celu analogiczna statystyka Wilk’a

\[\Lambda_p = \prod\limits_{i=p+1}^s\frac{1}{1+\lambda_i}\]

Wspomniana lambda Wilk’a ma w przybliżeniu rozkład \(\chi^2\) i dlatego w praktyce do testowania istotności modelu wykorzystuje się statystykę postaci \[\chi^2 = -[n-\frac{k+s}{2}-1]ln\Lambda_p\] mającą rozkład \(\chi^2\) o \((m-p)(k-p-1)\) stopniach swobody

Oddzielnym zagadnieniem jest to, które ze zmiennych pierowtych są ważne ze względu na własności dyskryminacyjne. W tym celu dla każdej zmiennej wyznacza się lambdę wilka według wzoru jak wyżej, ale bez udziału \(i\)-tej zmiennej \((\Lambda_P^{(i)})\)

Stosunek \[\frac{\Lambda_p}{\Lambda_p^{(i)}}\] nazywany jest cząstkową lambdą Wilk’a gdzie \(\Lambda_p^{(i)}\) oznacza \(\Lambda_p\) bez udziału i-tej zmiennej.

Do istotności poszególnych zmienncyh objaśniających stosujemy statystykę \[F = \frac{n-k-m}{k-1}\cdot\frac{1-\Lambda_p^{(i)}}{\Lambda_p^{(i)}}\] mającą rozkład \(F\) o \(n-k-m\) i \(k-1\) stopniach swobody.


18. Podaj założenia modelu analizy dyskryminacyjnej.

  • Cechy mają w grupach wielowymiarowy rozkład normalny.

  • Macierze wariancji/kowariancji są w grupach homogeniczne.

  • Brak korelacji miedzy średnimi i wariancjami.

  • Brak współliniowości zmiennych wykorzystywanych do dyskryminacji grup - (w innym przypadku będzie źle uwarunkowana macierz wariancji / kowariancji)

  • Rozmiar próby - dobrze, aby przypadków było conajmniej 4-5 razy więcej niż zmiennych użytych do budowy modelu. Najmniejsza liczebność próby powinna być większa od liczby cech \(m\) (ew. \(m-2\)). Dobrze też, aby wszystkie grupy były równoliczne.

  • Brak Wartości odstających - podobnie jak inne metody jest wrażliwa na takie punkty. Zawyżają one sztucznie zmienność i wartości średnie co narusza założenia o jednorodności wariancji/kowariancji i braku korelacji średnich i wariancji.


19. Do czego służy analiza składowych głównych?

PCA służy do:

  • Redukcji liczby zmiennych bez istotnej straty zawartych w nich informacji.

  • Transformacji układu zmiennych w jakościowo nowy układ czynników głównych.

  • Ortogonalizacji przestrzeni, w której rozpatrywane są obiekty, będące przedmiotem badań.

  • Wykrywania ukrytych związków między zmiennymi – formułowania i weryfikacji hipotez dotyczących istnienia i charakteru prawidłowości kształtujących związki między zjawiskami.

  • Opisu zjawisk w kontekście nowych kategorii zdefiniowanych przez czynniki.


20. Podaj interpretację geometryczną PCA.

Geometrycznie chodzi o znalezienie takiego wektora(ów), w kierunku którego wariancja obserwacji w oryginalnej przestrzeni jest największa. Po znalezieniu takiego wektora (PC1), szukamy wektora prostopadłego do PC1, w kierunku którego wariancja jest największa. Procedurę tę prowadzimy do wyczerpania wymiaru przestrzeni, czyli jeśli \(X\) jest \(n\times p\) wymiarowa, to możemy wyznaczyć \(p\) składowych głównych


21. - Jak wyznacza się kierunki składowych głównych?

Kierunki składowych głównych znajdujemy poprzez transformacje oryginalnych wartości macierzy \(X\) przez ortogonalną macierz obrotu \(A\).
Próbkowa macierz kowariancji nowego układu współrzędnych ma postać \[S_z=ASA'\] Z dekompozycji spektralnej (\(A = CDC′\)) po prostej dedukcji mamy, że \[\begin{align} A = C' & = \begin{pmatrix} a'_1 \\ a'_2 \\ \vdots \\ a'_p \end{pmatrix} \end{align}\] gdzie
\(a'_i\) jest i-tym wektorem własnym próbkowej macierzy kowariancji \(S\).

W ten sposób otrzymujemy wartości składowych głównych \(\;z_1 = a′_1x ,\; z_2 = a′_2x ,\; \dots ,\; z_p = a'_px\)


22. Jak określa się miarę wyjaśnionej wariancji przez model PCA?

Miarą wyjaśnionej zmienności wektora losowego \(x\) przez \(k\) pierwszych składowych głównych nazywamy wskaźnik \[\frac{\lambda_1+\lambda_2+\dots+\lambda_k}{\lambda_1+\lambda_2+\dots+\lambda_p} \cdot 100\%\]


\(\lambda_p\) - wartości własne macierzy kowariancji \(\Sigma\)


23. Jakie znasz kryteria doboru liczby składowych głównych?

  • Kryterium osypiska - na osi odciętych zaznaczamy numer wartości własnej (wartości własne uprzednio uporządkowane w kolejności nierosnącej), na osi rzędnych nanosimy wielkość wartości własnej. Tak powstałe punkty łączymy liniami. Otrzymany wykres nazywamy wykresem piargowym (lub wykresem osypiska)

  • Kryterium wyjaśnionej wariancji - dobieramy tak dużą liczbę składowych głównych, aby przekroczyć powszechnie uznawany próg 80 % wyjaśnionej zmienności. (Ze wzoru z 22.)

  • Kryterium Keisera - zakłada, że skoro standaryzowane zmienne wejściowe niosły ze sobą wariancje na poziomie 1, to każda składowa, którą chcemy włączyć do modelu też powinna mieć wariancję (wartość własną) równą co najmniej 1.


24. Na czym polega analiza czynnikowa?

Analiza czynnikowa polega na odtworzeniu macierzy kowariancji (korelacji) pierwotnych zmiennych w nowym układzie współrzędnych utworzonym przez czynniki.

Zakłada się w niej, że każdą zmienną obserwowalną można przedstawić jako kombinację liniową pewnej liczby nieobserwowalnych zmiennych, zwanych czynnikami, wspólnych dla całego zbioru zmiennych wejściowych, oraz jednego nieobserwowalnego czynnika swoistego dla tej zmiennej.

Model analizy czynnikowej \[Z = WF + \varepsilon\] gdzie
\(W\) - macierz (\(m \times s\)) ładunków czynnikowych (wag),
\(F\) - macierz (\(s \times m\)) czynników wspólnych,
\(\varepsilon\) - macierz (\(m \times 1\)) czynników swoistych.

\(W\) znajdujemy w wyniku dekompozycji macierzy kowariancji \(\Sigma\).


Ładunki czynnikowe są współczynnikami korelacji pomiędzy daną zmienną a składowymi.


25. Czym są zasoby zmienności wspólnej i zasoby zmienności swoistej?

Wariancję (zasób informacyjny) każdej zmiennej wyjściowej rozkłada się na dwa składniki: \[1=^1 V\!ar(Z_j) = h^2_j + d^2_j = \sum\limits^s_{l=1}w^2_{jl} + V\!ar(\varepsilon_j)\] gdzie
\(h^2_j\) - zasoby zmienności wspólnej (ang. communalities),
\(d^2_j\) - zasoby zmienności swoistej (ang. uniqueness).


\(^1\)na podstawie standaryzacji


26. Opisz zasadę działania jednej z technik wyznaczania macierzy ładunków czynnikowych.

Metoda składowych głównych
Ze względu na nazwę cześto jest mylona z PCA, faktycznie niewiele ma z nią wspólnego. Nazwa bierze się z faktu, iż w modelu pomija się zasoby zmienności swoistej podczas estymacji ładunków. Przyjmuje się, że \(S=\hat W\hat W'\). Do estymacji ładunków używamy dekompozycji spektralnej \[S=CDC'=CD^\frac{1}{2}D^\frac{1}{2}C'=(CD^\frac{1}{2})(CD^\frac{1}{2})'\] \[\text{Stąd }\; \hat W = CD^\frac{1}{2}\] Gdy naszą interpretacją jest redukcja przeztrzeni z \(p\) do \(m\) wymiarów przyjmuje się, że \[\hat W = C_1D^\frac{1}{2}_1\] gdzie
\(C_1\), \(D_1\) oznaczają zredukowane do pierwszych \(m\) wartości własnych wersje macierzy i wektorów własnych macierzy \(S\).


27. Jakie znasz metody estymacji wstępnych oszacowań zasobów zmienności wspólnej?

W ramach metody składowych głównych: \[\hat h^2_i=\sum\limits^m_{j=1}\hat\omega^2_{ij}\]

Gdy estymujemy ładunki z macierzy korelacji \(\textbf{R}\):

  • średnia arytmetyczna współczynników korelacji danej zmiennej z innymi \[h^2_j=\frac{1}{m}\sum\limits^m_{j'=1}r_{jj'} \quad j\neq j'\]

  • maksymalna wartość bezwzględna współczynników korelacji danej zmiennej z innymi zmiennymi \[h^2_j=\max\limits_{j'}|r_{jj'}| \quad j\neq j'\]

  • współczynnik determinacji wielokrotnej danej zmiennej z innymi zmiennymi (najczęściej stosowana i wykorzystywana przez R) \[h^2_j=R^2_{j\cdot 1,2,\dots,m}\]

  • formuła triad \[h^2_j=\frac{r_{jj'}r_{jj''}}{r_{j'j''}} \quad j\neq j' \neq j'' \] gdzie
    \(r_{jj'}\), \(r_{jj''}\) - dwie najwyższe wartości współczynników korelacji \(j\)-tej zmiennej z innymi zmiennymi


28. Na czym polega przypadek Heywood’a?

Zdarza się, że zasoby zmienności wspólnej przekraczają 1, co nazywamy przypadkiem Heywood’a, może on wystapić w Metodzie iterowanych zasobów zmienności wspólnej (MINRES) i w Metodzie największej wiarogodności


29. Jakie znasz kryteria doboru liczby czynników?

  • Wybierz taką liczbę czynników, aby łączny poziom wyjaśnionej wariancji przekroczył \(80\%\),

  • Wybierz tyle czynników, ile wartości własnych jest wiekszych niż średnia wartość własna,

  • Użyj kryterium osypiska (opisane przy okazji PCA).

  • Wyznacz liczbę potrzebnych czynników na podstawie testu, który mówi, że m jest wystarczającą liczbą czynników, aby spełniona była hipoteza \(H_0\): \(S = \hat{W}\hat{W}'+\hat{\Psi}\).

  • Użyj kryterium resztowego - kryterium to opiera się na macierzy resztowej \(R − \tilde R\), która jest różnicą macierzy korelacji i zredukowanej macierzy korelacji. Jest ona miarą dopasowania modelu zawierającego odpowiednią liczbę czynników do danych obserwowanych. Przyjmujemy taką liczbę czynników, począwszy od której odchylenie standardowe wyrazów macierzy powyżej głównej przekątnej jest mniejsze od \(\frac{1}{\sqrt{n-2}}\)


30. Na czym polega rotacja układu w analizie czynnikowej?

Jest to metoda obracania układu współrzędnych, w taki sposób, aby umożliwić badaczowi łatwiejszą interpretację czynników. Transformacje te powinny prowadzić do prostych wyników. Wyróżnia się rotację ortogonalną i nieortogonalną (ukośną). Dążymy do tego aby ładunki czynnikowe miały wartości jak najbliższe 0 lub najbardziej skrajne, czyli bliskie -1 albo 1

Udział czynników w wyjaśnianiu wspólnej wariancji (suma ich zasobów informacyjnych) nie ulega zmianie w wyniku rotacji)

Rotacje prowadzą do wyodrębnienia rozłącznych grup zmiennych wejściowych, z których każda zawiera zmienne o wysokich ładunkach dla jednego czynnika, średnie dla innych czynnikówo raz bliskie zeru dla pozostałych czynników.


31. Wymień po jednej rotacji ortogonalnej i ukośnej.

Rotacje ortogonalne

  • Metoda Varimax - Metoda ta pozwala na minimalizację liczby zmiennych posiadających wysokie ładunki czynnikowe przez obrót ortogonalny. Upraszcza w ten sposób interpretację czynników.

  • Metoda Quartimax - Metoda rotacji, która minimalizuje liczbę czynników potrzebnych do wyjaśnienia każdej zmiennej. Metoda ta upraszcza interpretację obserwowanych zmiennych.

Rotacje ukośne

  • Metoda rotacji prostą OBLIMIN - Metoda ta pozwala wyodrębnić ładunki czynnikowe przez obrót ukośny (dla czynników skorelowanych ze sobą)

  • Metoda Promax - Metoda która pozwala na skorelowanie czynników. Można ją wyliczyć szybciej niż rotację prostą Oblimin, dlatego jest ona użyteczna w przypadku dużych zbiorów danych.


32. Na czym polega analiza skupień?

Grupowanie (ang. data clustering), zwane również analizą skupień lub klasyfikacją nienadzorowaną polega na podziale pewnego zbioru danych \[O = \{x_i = (x_{i1},\dots,x_{id}),\; i=1,\dots,N\}\] na pewne podzbiory wektorów (grupy).

Podstawowym założeniem dotyczącym wynikowego podziału jest homogeniczność obiektów wchodzących w skład jednej grupy oraz heterogeniczność samych grup – oznacza to, że wektory stanowiące jedną grupę powinny być bardziej podobne do siebie niż do wektorów pochodzących z pozostałych grup.


\(x_i\) jest \(d\)-wymiarowym wektorem cech opisujących obiekt należący do zbioru.


33. Jakie warunki spełnia podział twardy?

Podział twardy (ang. hard) uzyskuje się w efekcie takiego grupowania, w którym każdy wektor (obiekt) należy dokładnie do jednej grupy i wszystkie grupy są niepuste.

Istnieją również metody analizy skupień (ang. fuzzy clustering) oparte o grupowanie probabilistyczne, w którym obiekty należą z pewnym prawdopodobieństwem (nie zakałda się jednoznaczności przypisania).


34. Czym się różnią grupowania hierarchiczne od niehierarchicznych?

Celem algorytmów niehierarchicznych jest znalezienie takiego podziału zbioru na zadaną liczbę podzbiorów, aby uzyskać optymalną wartość pewnego kryterium. Optymalizację kryterium osiąga się np. poprzez iteracyjne przemieszczanie obiektów między grupami.

Metody hierarchiczne konstruują pewną hierarchię skupień, która najczęściej reprezentowana jest graficznie w postaci drzewa binarnego nazywanego dendrogramem. W liściach takiego drzewa znajdują się elementy analizowanego zbioru, węzły natomiast stanowią ich grupy


35. Opisz algorytm grupowania metodą k-średnich.

  1. Podziel wstępnie zbiór na k skupień (losowo),

  2. Dla każdego skupienia policz jego centroid (środek ciężkości grupy),

  3. Przypisz każdy z elementów zbioru do najbliższej mu grupy (odległość od grupy jest w tym przypadku tożsama z odległością od centroidu),

  4. Powtarzaj dwa poprzednie kroki tak długo, jak długo zmienia się przyporządkowanie obiektów do skupień.

Niestety algorytm k-średnich ma wiele wad. Już na wstępie konieczne jest zdefiniowanie liczby grup, chociaż zazwyczaj nie wiadomo, jak wiele grup występuje w przetwarzanym zbiorze. Początkowe centroidy wybierane są w sposób losowy, podczas gdy ich wybór ma decydujący wpływ na jakość otrzymanego grupowania. Ponadto algorytm jest mało odporny na zaszumione dane.


36. Czym są metody aglomeracyjne i deglomeracyjne?

Metody aglomeracyjne rozpoczynają tworzenie hierarchii od podziału zbioru n obserwacji na n jednoelementowych grup, które w kolejnych krokach są ze sobą scalane.

Metody deglomeracyjne inicjowane są jedną grupą n-elementową, a hierarchia tworzona jest poprzez sukcesywny podział na coraz mniejsze grupy


37. Wymień co najmniej trzy metryki stosowane w analizie klastrowej.

  • Odległość euklidesowa \[d(x,y) = \sqrt{\sum\limits^k_{i=1}(x_i-y_i)^2}\]

  • Kwadrat odległości euklidesowej \[d^2(x,y) = \sum\limits^k_{i=1}(x_i-y_i)^2\]

  • Odległość Manhattan (taxi, miejska) \[d(x,y) = \sum\limits^k_{i=1}|x_i-y_i|\]

  • Odległość Czebyszewa \[d(x,y) = \max\limits_{i=1,\dots,k}|x_i-y_i|\]


38. Opisz co najmniej trzy sposoby aglomeracji.

  • Pojedyńczego wiązania \[d(A,B) = \min \{d(x,y): x\in A, y \in B\}\]

  • Pełnego wiązania \[d(A,B) = \max \{d(x,y): x\in A, y \in B\}\]

  • Środków ciężkości - środek ciężkości skupienia jest to punkt o współrzędnych będących średnimi arytmetycznymi wartości zmiennych dla obiektów należących do danego skupienia; odległość skupień jest definiowana jako odległość ich środków ciężkości

  • Ważonych środków ciężkości – analogicznie jak poprzednio z tym, że przy obliczeniach uwzględnia się ważenie, aby uwzględnić różnice w liczebnościach skupień,

  • Warda - ta metoda różni się od wszystkich pozostałych, ponieważ do oszacowania odległości między skupieniami wykorzystuje podejście analizy wariancji. Zmierza do minimalizacji sumy kwadratów odchyleń dowolnych dwóch skupień, które mogą zostać uformowane na każdym etapie.


39. Jak przebiega algorytm grupowania hierarchicznego?

  1. Wyznaczenie macierzy odległości pomiędzy obiektami;

  2. Wybór najmniejszej odległości (poza przekątną) – tzw. odległości aglomeracyjnej;

  3. Połączenie odpowiadających jej obiektów;

  4. Wyznaczenie nowej macierzy odległości;

  5. Wybór nowej odległości aglomeracyjnej;

  6. Połączenie odpowiadających jej obiektów lub skupień;

  7. Powrót do punktu 4 aż do połączenia wszystkich obiektów w jedno skupienie.


40. Do czego służy analiza korespondencji?

Analiza korespondencji jest metodą badania współwystępowania zmiennych. Przeznaczona jest do analizy zmiennych o charakterze jakościowym, tj. mierzonych na słabych skalach pomiaru (nominalna, porządkowa, przedziałowa). Metoda ta pozwala na graficzne przedstawienie wyników analizy w postaci mapy percepcji, w niskowymiarowej przestrzeni, na której przedstawione są wszystkie kategorie badanych zmiennych.

Składa się ona z 3 podstawowych kroków:

  • obliczania mas wierszy/kolumn

  • obliczania profili wierszy/kolumn

  • wyznaczania odległości pomiedzy wierszami lub kolumnami za pomocą statystyki \(\chi^2\)


41. Czym jest macierz kontyngencji?

Tabela kontyngencji prezentuje strukturę danych o charakterze jakościowym i jest punktem wyjścia do pomiaru siły zależności między dwiema zmiennymi.

Empiryczne liczebności w \(h\)-tym wierszu i \(j\)-tej kolumnie oznaczone są przez \(n_{hj}\) i oznaczają liczbę jednoczesnych wystąpień \(h\)-tej kategorii cechy \(X\) i \(j\)-tej kategorii cechy \(Y\). Liczebności brzegowe wierszy to liczba wszystkich wsytąpień cechy X na pewnym poziomie \[n_{h\cdot}=\sum\limits^J_{j=1}n_{hj}\] a liczebności brzegowe kolumn to: \[n_{\cdot j}=\sum\limits^H_{h=1}n_{hj}\] Tablica kontyngencji jest podstawą do zbudowania tablicy korespondencji P.


42. Czym jest macierz korespondencji?

Tablica korespondencji jest wyznaczana na podstawie macierzy korespondencji i wyraża względną częstość wystąpień. Zdefinniowana jest jako \[P= \left[\frac{n_{hj}}{n}\right]\]


43. Wymień po dwie miary zależności dla skal nominalnej i porządkowej.

Miary zależności dla skal nominalnych

  • Test \(\chi^2\) - sprawdzaniem hipotezy o niezależności jest statystyka: \[\chi^2=\sum\limits^H_{h=1}\sum\limits^J_{j=1}\frac{(n_{hj}-\hat n_{hj})^2}{\hat n_{hj}}\] gdzie
    \(\hat n_{hj} = \frac{n_{h\cdot}n_{\cdot j}}{n}\) oznaczją teoretyczne liczebności tablicy kontyngencji.
    \(0\neq\chi^2\neq n\sqrt{(H-1)(J-1)}\) i im bliżej 0, tym bardziej prawdopodobne, że \(X\) i \(Y\) są niezalezne.

Statystyka ma rozkład \(\chi^2\) o \((H-1)(J-1)\) stopniach swobody. Zbiór krytyczny \(W\) okreslony jest relacją \(P(\chi^2\geq\chi^2_\alpha)=\alpha\)

  • \(\Phi\) Yule’a \[\Phi^2=\frac{\chi^2}{n}\]

miara z przedziału \([0,1)\); interpretacja podobna do \(\chi^2\)

Miary zależności dla skal porządkowych

  • \(\tau_\alpha\) Kendalla \[\tau_\alpha = \frac{n_Z-n_N}{\frac{1}{2}n(n-1)}\] gdzie
    \(n_Z\) - liczba par zgodnych tzn. porównywane zmienne w obrębie tych dwóch obserwacji zmieniają się w tę samą stronę, czyli albo w pierwszej obserwacji obydwie są więkze niż w drugiej, albo obydwie mniejsze,
    \(n_N\) - liczba par niezgodnych, tzn. zmieniają się w przeciwną stronę, czyli jedna z nich jest większa dla tej obserwacji w parze, dla której druga jest mniejsza. Współczynnik Kendalla służy do oceny siły związku między zmiennymi.

Przyjmuje wartości w przedziale \([-1,1]\), przy czym wartości bliskie \(1\) oznaczają, że każda ze zmiennych rośnie przy wzroście drugiej, natomiast \(-1\) oznacza, że każda zmienna maleje przy wzroście drugiej.

  • \(\gamma\) Goodmana-Kruskala \[\gamma=\frac{n_Z-n_N}{n_Z+n_N}\]

Służy on do oceny kierunku i syły związku. Przyjmuje wartości z przedziału \([-1,1]\), przy czym wartości bliskie \(-1\;\)i\(\;1\) oznaczają silną zależność, a bliskie \(0\) brak zależności pomiędzy zmiennymi.


44. Czym są masy wierszowe i kolumnowe?

Częstości brzegowe
wierszy \[p_{h\cdot}=\sum\limits^J_{j=1}p_{hj}=\frac{n_{h\cdot}}{n}\] kolumn \[p_{\cdot j}=\sum\limits^H_{h=1}p_{hj}=\frac{n_{\cdot h}}{n}\] i nazywane są masami wierszy i masami kolumn

Elementy \(p_{h\cdot}\) i \(p_{\cdot j}\) tworzą odpowienio wektory częstości brzegowych wierszy \(\textbf{r}\) i wektory częstości brzegowych kolumn \(\textbf{c}\) \[\textbf{r} = \left[ \frac{n_{h \cdot}}{n} \right] = [p_{h\cdot}], \quad \textbf{c} = \left[ \frac{n_{\cdot j}}{n} \right] = [p_{\cdot j}]\]


45. Czym są przeciętne profile wierszowe i kolumnowe?

Masy wierszowe i kolumnowe można traktować odpowiednio jako przeciętne profile kolumnowe i wierszowe (\(\leftrightarrows\)).

Profile wierszy i kolumn mogą być interpretowane jako punkty w wielowymiarowej przestrzeni. Profile podobne do siebie będą położone bliżej siebie,natomiast niepodobne będą przedstawione jako punkty leżące daleko od siebie.


46. Jak obliczyć odległość pomiędzy profilami?

Odległość pomiędzy profilami wierszowymi obliczamy według wzoru \[d(h,h') = \sqrt{\sum\limits^J_{j=1}\frac{\left(\frac{p_{hj}}{p_{h\cdot}}-\frac{p_{h'j}}{p_{h'\cdot}}\right)^2}{p_{\cdot j}}}\] gdzie \(h,h' = 1,\dots,H,h \neq h'\), oznaczają dwie rózne kategorie zmiennej wierszowej.

Odległość pomiędzy profilami kolumnowymi obliczamy według wzoru \[d(j,j') = \sqrt{\sum\limits^H_{h=1}\frac{\left(\frac{p_{hj}}{p_{\cdot j}}-\frac{p_{hj'}}{p_{\cdot j'}}\right)^2}{p_{h\cdot}}}\] gdzie \(j,j' = 1,\dots,J,j \neq j'\), oznaczają dwie rózne kategorie zmiennej kolumnowej.


47. Czym jest inercja w analizie korespondencji?

Inercja(bezwładność) - jest miarą zróżnicowania elementów w macierzy danych wejściowych, natomiast całkowita inercja określa stopień dyspersji profili wierszowych (kolumnowych) względem odpowiadających im centroid i wskazuje, jak bardzo dane profile różnią się od odpowiadającego im profilu przeciętnego.


48. Wymień miary jakości odtworzenia informacji w mapie percepcji.

  • korelacja punktu z osią - dzięki niej możliwe jest wskazanie tej osi, która najlepiej opisuje punkt (kategorię) w nowej przestrzeni \[\text{cor}^2_{hk} = \frac{p_{h\cdot}f^2_{hk}}{\sum\limits^K_{k=1}p_{h\cdot}f^2_{hk}} = \frac{\lambda_{hk}}{\lambda_{h}}\] \[\text{cor}^2_{jk} = \frac{p_{\cdot j}g^2_{jk}}{\sum\limits^K_{k=1}p_{\cdot j}f^2_{jk}} = \frac{\lambda_{jk}}{\lambda_{j}}\] gdzie
    \(f_{hk}\) - współrzędna \(h\)-tego wiersza w \(k\)-tym wymiarze
    \(g_{jk}\) - współrzędna \(j\)-tej kolumny w \(k\)-tym wymiarze
    \(\lambda_{hk}\) - inercja \(h\)-tego wiersza w \(k\)-tym wymiarze
    \(\lambda_{h}\) - inercja \(h\)-tego wiersza
    \(\lambda_{jk}\) - inercja \(j\)-tej kolumny w \(k\)-tym wymiarze
    \(\lambda_{h}\) - inercja \(j\)-tej kolumny

  • udział punktu w wymiarze - inaczej absolutny udział, jest interpretowany jako części inercji związana z konkretnym wymiarem, która jest wyjaśniana przez dany punkt i obrazuje, do jakiego stopnia punkt przyczynia się do zdefiniowania danego wymiaru. Punkty z relatywnie wysokimi wartościami absolutnego udziału są najważniejsze w definiowaniu danego wymiaru. Suma udziałów absolutnych dla każdego wymiaru wynosi 1. Udział wiersza w wymiarze określa relacja: \[q_{hk}=\frac{r_hf^2_{hk}}{\lambda^2_k}\] gdzie
    \(r_h\) - masa \(h\)-tego wiersza,
    \(\lambda^2_k\) - wartość własna \(k\)-tego wymiaru.

Udział kolumn określamy analogicznie: \[q_{jk}=\frac{c_jg^2_{jk}}{\lambda^2_k}\] gdzie
\(c_j\) - masa \(h\)-tego wiersza,
\(\lambda^2_k\) - wartość własna \(k\)-tego wymiaru.

  • udział wymiaru w inercji - stosunek kwadratu odległości danego punktu w tym wymiarze od środka układu osi czynnikowych do odległości od środka układu czynnikowego: \[s_h=\frac{f^2_{hk}}{d^2_h}=\cos^2\!\omega\] gdzie
    \(f^2_{hk}\) - - współrzędna punktu \(h\) na \(k\)-tej osi,
    \(d^2_h\) - odległość pomiędzy \(h\)-tym punktem a centroidą,
    \(\omega\) - kąt pomiędzy osią a odcinkiem łączącym punkt z centroidą.

Podobnie definiuje się udział kolumn: \[s_j=\frac{g^2_{jk}}{d^2_h}=\cos^2\!\omega\] Jeśli wartość \(s_h\) lub \(s_j\) jest wysoka, to kąt jest mały i oznacza to, że wymiar dobrze opisuje ten punkt. Suma wartośći \(s\) dla każdego punktu wynosi 1.


49. Czym jest analiza log-liniowa i do czego służy?

Analiza log-liniowa jest analizą tabel wielodzielczych (tabel kontyngencji), służąca do badania wpływu różnych czynników i ich interakcji.

Analiza log-liniowa jest modelem regresji dla zmiennych jakościowych.

Modele log-liniowe są podobne do analizy wariancji i wiele terminów używanych w analizie wariancji zostało zaadoptowanych przez analizę log-liniowa.


50. Czym są zera próbkowe i strukturalne w tablicach kontyngencji?

Problem mogą stwarzać przypadki dopasowywania modelu log-liniowego do danych z tablic wielodzielczych, w których występują zerowe liczebności, ponieważ funkcja logarytm nie jest określona w zerze, a prawostronna granica w tym punkcie wynosi \(−\infty\).

Takie sytuacje moga wystapic w dwóch przypadkach:
- gdy nie jest możliwe zaobserwowanie wartości dla pewnych kombinacji poziomów zmiennych - zera a priori (strukturalne);
- gdy obserwacje są zróżnicowane, komórek jest dużo, a liczebność próby mała - zera próbkowe.

Rozwiązaniem problemu występowania zer próbkowych jest zwiększenie liczebności próbki lub ewentualnie, jeśli jest to niemożliwe, zwiększenie wszystkich liczebności oczekiwanych przez dodanie małej stałej, zwykle \(\Delta = 0.5\).

W przypadku niekompletnych tablic z zerami strukturalnymi liczbę stopni swobody rozkładu \(\chi^2\) statystyki \(\chi^2\) (lub \(\chi^2_L\)) określa formuła \[d\!f=n_1-n_2-n_3\] gdzie
- \(n_1\) - liczba komórek w tabeli,
- \(n_2\) - liczba parametrów w modely wymagających estymacji,
- \(n_3\) - liczba zer a priori


51. Czym są modele hierarchiczne w analizie log-liniowej?

Model hierarchiczny zawiera wszystkie składniki niższego rzędu. Jeżeli na przykład model zawiera \(\lambda^{XX}_{ij}\), to zawiera również \(\lambda^X_i\) i \(\lambda^Y_j\).

Jeżeli nie włączymy składników niższego rzędu, to istotność statystyczna i interpretacja składników wyższego rzędu będzie zależała od kodowania zmiennych, co jest niepożądane.

Jeśli model zawiera składniki dwuczynnikowe, to należy być ostrożnym w interpretacji składników niższego rzędu, gdyż szacowanie efektów głównych zależy od sposobu kodowania zmiennych zastosowanego do efektów wyższego rzędu. Prawidłowo wiec powinniśmy ograniczyć uwagę do interpretacji składników najwyższego rzędu.


52. Do czego służy skalowanie wielowymiarowe?

Skalowanie wielowymiarowe (ang. Multidimensional Scaling) jest zbiorem technik opartych na założeniu, że respondent wyrażający swój stosunek do rzeczywistości operuje w sposób mniej lub bardziej świadomy wymiarami, traktując obiekty jako punkty w przestrzeni m-wymiarowej.

Podstawowe cele skalowania wielowymiarowego to:

  • przedstawienie w przestrzeni \(r\)-wymiarowej \((r < m)\) relacji zachodzących między badanymi obiektami;

  • ukazanie “struktury” badanych obiektów przez określenie treści wymiarów na podstawie podobieństw i preferencji respondentów;

  • wykrycie ukrytych zmiennych, które choć nie są obserwowane bezpośrednio, wyjaśniają podobieństwa i różnice pomiędzy badanymi obiektami;

  • weryfikacja hipotezy o tym, że pomiędzy badanymi obiektami faktycznie zachodzą (lub nie zachodzą) określone różnice.

Decyzja o liczbie wymiarów \(r\), w których prezentowane są wyniki skalowania wielowymiarowego, należy do badacza i zależy od tego, ile wymiarów powinna mieć przestrzeń stanowiąca zadowalające rozwiązanie w odniesieniu do danych wyjściowych. Ze względu na możliwości graficznej prezentacji wyników jest to zazwyczaj przestrzeń dwu- lub trójwymiarowa.